强化学习的认识:

IBM的深蓝赢了人类国际象棋大师,强化学习并没有给最终的结果画上标签,
而是给每一步打分,如果最终的的结局是赢了,那么加高分,否则给低分